深层生成模型已成为检测数据中任意异常的有前途的工具,并分配了手动标记的必要性。最近,自回旋变压器在医学成像中取得了最先进的性能。但是,这些模型仍然具有一些内在的弱点,例如需要将图像建模为1D序列,在采样过程中误差的积累以及与变压器相关的显着推理时间。去核扩散概率模型是一类非自动回旋生成模型,最近显示出可以在计算机视觉中产生出色的样品(超过生成的对抗网络),并实现与变压器具有竞争力同时具有快速推理时间的对数可能性。扩散模型可以应用于自动编码器学到的潜在表示,使其易于扩展,并适用于高维数据(例如医学图像)的出色候选者。在这里,我们提出了一种基于扩散模型的方法,以检测和分段脑成像中的异常。通过在健康数据上训练模型,然后探索其在马尔可夫链上的扩散和反向步骤,我们可以识别潜在空间中的异常区域,因此可以确定像素空间中的异常情况。我们的扩散模型与一系列具有2D CT和MRI数据的实验相比,具有竞争性能,涉及合成和实际病理病变,推理时间大大减少,从而使它们的用法在临床上可行。
translated by 谷歌翻译
Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity's interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
translated by 谷歌翻译
Building trustworthy, effective, and responsible machine learning systems hinges on understanding how differences in training data and modeling decisions interact to impact predictive performance. In this work, we seek to better understand how we might characterize, detect, and design for data-model synergies. We focus on a particular type of data-model inefficiency, in which adding training data from some sources can actually lower performance evaluated on key sub-groups of the population, a phenomenon we refer to as negative data externalities on group performance. Such externalities can arise in standard learning settings and can manifest differently depending on conditions between training set size and model size. Data externalities directly imply a lower bound on feasible model improvements, yet improving models efficiently requires understanding the underlying data-model tensions. From a broader perspective, our results indicate that data-efficiency is a key component of both accurate and trustworthy machine learning.
translated by 谷歌翻译
许多基于模型的强化学习方法(MBRL)为他们可以提供的马尔可夫决策过程(MDP)模型的准确性和学习效率提供了保证。同时,状态抽象技术允许减少MDP的大小,同时相对于原始问题保持有限的损失。因此,令人惊讶的是,在结合两种技术时,即MBRL仅观察抽象状态时,没有任何保证可用。我们的理论分析表明,抽象可以在网上收集的样本(例如在现实世界中)引入依赖性,这意味着MBRL的大多数结果不能直接扩展到此设置。这项工作的新结果表明,可以使用Martingales的浓度不平等来克服此问题,并允许将R-MAX等算法的结果扩展到以抽象为设置的算法。因此,通过抽象的模型为抽象的RL生成了第一个性能保证:基于模型的强化学习。
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
可以使用X射线自由电子激光器的强脉冲和短脉冲直接通过单次相干衍射成像直接观察到自由飞行中孤立的纳米样品的结构和动力学。广角散射图像甚至编码样品的三维形态信息,但是该信息的检索仍然是一个挑战。到目前为止,只有通过与高度约束模型拟合,需要对单镜头实现有效的三维形态重建,这需要有关可能的几何形状的先验知识。在这里,我们提出了一种更通用的成像方法。依赖于允许凸多面体描述的任何样品形态的模型,我们从单个银纳米颗粒中重建广角衍射模式。除了具有高对称性的已知结构动机外,我们还检索了以前无法访问的不完美形状和聚集物。我们的结果为单个纳米颗粒的真实3D结构确定以及最终的超快纳米级动力学的3D电影开辟了新的途径。
translated by 谷歌翻译
人工智能(AI),机器学习和深度学习(DL)方法在生物医学图像分析领域变得越来越重要。但是,为了利用此类方法的全部潜力,需要作为训练数据代表数量的实验获得的图像,其中包含大量手动注释对象。在这里,我们将语法(合成数据)介绍为一种新的方法,用于生成合成,光现实和高度复杂的生物医学图像作为DL系统的训练数据。我们在组织学切片中的肌肉纤维和结缔组织分析的背景下显示了方法的多功能性。我们证明,可以在以前看不见的现实世界数据上执行强大和专家级的细分任务,而无需仅使用合成训练数据进行手动注释。作为一种完全参数技术,我们的方法为生成对抗网络(GAN)构成了可解释的可控替代方案,并且有可能在显微镜及其他地区的各种生物医学应用中显着加速定量图像分析。
translated by 谷歌翻译
我们提出了一种在数据样本集合中共同推断标签的方法,其中每个样本都包含一个观察和对标签的先验信念。通过隐式假设存在一种生成模型,可区分预测因子是后部,我们得出了一个训练目标,该目标允许在弱信念下学习。该配方统一了各种机器学习设置;弱信念可以以嘈杂或不完整的标签形式出现,由辅助输入的不同预测机制给出的可能性,或反映出有关手头问题结构的知识的常识性先验。我们证明了有关各种问题的建议算法:通过负面培训示例进行分类,从排名中学习,弱和自我监督的空中成像细分,视频框架的共段以及粗糙的监督文本分类。
translated by 谷歌翻译
目前的AI / ML用于数据驱动工程使用的方法,这些方法主要培训离线训练。这种模型可以在通信和计算成本方面构建昂贵,并且它们依赖于在延长的时间段内收集的数据。此外,当系统发生变化时,它们会变为已过时。为了解决这些挑战,我们调查在线学习技术,可自动减少可用数据源的数量进行模型培训。我们介绍了一种称为在线稳定特征集算法(OSF)的在线算法,其在接收到少量测量后,从大量可用数据源中选择一个小功能。该算法用特征排名算法初始化,特征设置稳定性度量和搜索策略。我们使用从内部测试平台的迹线和操作中的数据中心进行了对该算法进行了广泛的实验评估。我们发现OSF在所有调查的数据集上实现了1-3级数量级的特征大小的大小减少。最重要的是,我们发现在OSF制作的特征集上训练的预测器的准确性比在通过离线特征选择获得的特征集训练时稍微好。因此,OSF被证明是有效的作为在线特征选择算法和关于用于特征选择的采样间隔的鲁棒。我们还发现,当发生模型的数据的概念漂移时,通过重新计算功能集并再培训预测模型,可以减轻其效果。
translated by 谷歌翻译
心房颤动的计算模型已成功地用于预测最佳消融部位。评估消融模式的效果的关键步骤是从不同,潜在的随机的位置加速模型以确定是否可以在ATRIA中诱导心律失常。在这项工作中,我们建议使用黎曼歧管的多保真高斯过程分类,以有效地确定心律失常是诱导性诱导的区域内的区域。我们构建一个直接在心房表面上运行的概率分类器。我们利用较低的分辨率模型来探索心房表面,并与高分辨率模型无缝结合,以识别诱导区域。当用40个样本培训时,我们的多保真性分级器显示了比使用作为基线心房颤动模型的最近邻分类器的均衡精度,并且在心房颤动的情况下具有9%。我们希望这种新技术将允许更快,更精确地对心房颤动的计算模型临床应用。
translated by 谷歌翻译